来自中国的临床一线,一项你可能还没听说过的重要AI研究
图片来源:pexels
我们测试AI系统中,典型方法的不充分性以及存在的安全问题已经得到了广泛讨论,特别是,该领域所有引人注目的论文到目前为止只进行了对照实验,因此我们不知道AI系统在实际患者身上将如何发挥作用。
但接下来要向大家介绍一项尚未引起太多关注的AI测试系统——它实际应用于一项临床实践并全程对实践过程进行测试,并且以此评估临床实践结果。这一临床试验的过程在中国进行,笔者认为“中国正迅速成为应用人工智能领域的全球领导者——包括医学领域,但在西方几乎很少能从媒体听到关于中国在这方面的成绩,几乎全是“西方AI产品距离真正的临床试验还有几年”诸如此类的消息,可事实是越来越多中国企业正将成熟的AI产品和系统应用于患者。”
西方媒体的言论和中国目前实际所取得的成就之间存在出入,是意料之内的。因为西方记者很少有机会深入了解中国,而中国的医疗AI公司也无需征求西方媒体的报道,中国AI企业可通过其政府以及医疗监管体系获得更广泛的市场,专业的知识,大量的数据和强有力的资金支持。中国的医疗和科技领域的政策支持,使得西方对医学AI的认知愈发狭窄。
医学AI的第一次临床试验
该项随机对照研究在成都四川省人民医院进行,可通过实时自动检测系统提高结肠镜息肉和腺瘤检出率,具有一定前瞻性。
上海的一个人工智能团队开发了这套测试系统,医生可以在结肠镜检查时检测肠壁上的息肉(小肿瘤)。该团队的系统性能测试显示,在回顾性实验中每幅图像的AUC(AUC,受试者工作特征曲线下面积,越接近1,说明准确性越高——译者注)为0.984,并还有其他一些很好的结果。然而在笔者看来临床试验的定义在于,AI如何在实践中改变病人的。也势必会存在人们对于医学AI的疑问——在这种情况下,使用人工智能系统是否意味着诊断更多的癌症,是否会导致更多不必要的活检?
论文中,该系统应用于临床试验。医生用内窥镜做正常的结肠镜检查的同时,AI系统会进行实时观测。若检测到息肉,系统会进行提示,医生便可通过另一屏幕上显示的一个覆盖在视频上的浮动矩形,以突出息肉。该团队做的更有建设性意义的是,把这项工作从实践提升到临床试验——摘除息肉。这些息肉是人工智能观测到的,医生所没有看到的(尽管医生可以否决系统观测结果,否决行为会被被记录为一个错误警报)。
在这项研究中,由于人工智能系统的输出,尽管医生对患者实施了侵入性医疗操作摘除息肉,但这一举动也正好证明AI系统在医学临床领域的安全性,这对于医学AI的发展是一个很好的佐证。临床试验中,结肠镜检查结果也并不仅是医生根据视觉所看到的而进行最终决定是否摘除,AI系统还能与医生一起决定检测到的息肉是否需要进一步活组织检查。
论文中显示,试验团队做了更多的活组织检查。在人工智能组中,他们切除的息肉数量几乎是正常结肠镜组的两倍(人工智能组切除的息肉数量为500个,正常结肠镜组切除的息肉数量为270个)。数字本身没什么出彩的,但令人兴奋的是,当在显微镜下检查切除的病灶时,发现了更多的腺瘤(腺瘤是有变成癌症风险的息肉)。人工智能组总共发现了1.89倍的息肉和1.72倍的腺瘤,这似乎是潜在癌症数量的巨大增长,但发现腺瘤的也并不意味着患者的情况就会好转。研究小组认识到这一点,并依次分析了他们发现的腺瘤的类型。
人类不太可能错过大的、危险的(危险是一个技术术语,但有些人把这些病变称为“有梗的”)腺瘤,而人工智能主要能发现“小型”腺瘤。人工智能无法在这组病变中增加太多,检出率已经接近100%。研究团队承认:AI系统发现的较小的病变比较大的病变(更多的细胞=更多的风险)患癌症的风险更低。他们说:“进一步的研究应该解决CADe在减少间隔性癌症中的作用,这也是任何结肠镜检查的主要目标。”
这些进一步的研究是未来数年需要去完成的,人们也因此担心“什么时候医学AI能足够安全”?
医学AI的安全性问题考虑
虽然我们没有关于这项研究主要终点的数据(区间癌症率、癌症死亡率),但我们有系统给出的安全数据。这些数据记录了误报率(当医生否决人工智能系统并说“我没有做活检”)和并发症率(活检的风险是你可能会穿刺肠道)。
令人惊讶的是,误报率很小。尽管之前报道的每幅图像的误报率约为5%,但在实际操作中,每13次结肠镜检查中只有一次误报。并发症发生率也很低——为0。在500例左右的CAD病例中,有近500例活组织检查没有并发症,我们可以有把握地地假定风险不太可能比正常情况高。
在查看大多数医学AI论文时,查看者需要仔细调查总结系统出错的案例。虽然AI系统与人的工作相比有突出的优势,但并不意味着两者的错误情况是相同的。如果人类的错误是良性的,永远不会造成伤害,而人工智能的错误是危及生命的呢?所以查看者需要通过查看实际的试验图像来理解AI系统与人的误差分布。
这对于临床医生用处很大,如果AI系统认为它观测到息肉,医生就可以立即寻找药物胶囊和气泡。考虑到这些安全数据和额外的分析,单纯只做系统性能测试,其结果会引发误导。但是这个团队通过AI系统进行一次临床试验,他们对研究设计中可能出现的失误进行了非常全面的讨论,并且考虑到由于缺乏相关知识而导致用户偏见的可能性。
最近,出于对科学探索的严谨,这个团队还发布了一个与假冒人工智能进行双盲研究的摘要。总之,团队的工作对于目前医学AI发展的贡献,足以显示医学AI的安全性和有效性,并足以证明人工智能可在临床领域使用。只是我们仍然需要看看它是否对长期结果有效、是否对其他人群有效。
这项试验在作者看来提供了足够的证据来证明AI应用于临床医学的合理性。
药明康德AI整理编译
来源:lukeoakdenrayner.wordpress.com
题图来源:pexels
参考资料
[1] https://lukeoakdenrayner.wordpress.com/2019/06/01/the-best-medical-ai-research-that-you-probably-havent-heard-of/
本文来自药明康德微信团队,欢迎转发到朋友圈,谢绝转载到其它平台。如有开设白名单需求,请在文章底部留言;如有其它合作需求,请联系wuxi_media@wuxiapptec.com。
点击阅读:开放数据不一定是好事儿?十大医学领域人工智能的争议性观点
点击阅读:准确率超90%!AI预测心脏病发作及死亡率远胜人类